Search

ว่าด้วยเรื่องของ "n"

ช่วงนี้มีดราม่าค่อ...

  • Share this:

ว่าด้วยเรื่องของ "n"

ช่วงนี้มีดราม่าค่อนข้างดังเกี่ยวกับการที่นายแพทย์ศูนย์วิจัยชื่อดังแห่งหนึ่ง ได้นำผลการทดลองที่มี "n=2" มาอ้างอิง อันเป็นผลให้คนทำมีมกันมากมาย ไปจนถึงมีอาจารย์ประจำสถาบันชื่อดังอีกแห่งหนึ่ง มาพยายามแย้งว่างานวิจัยที่ "n=1" มีตั้งเยอะแยะ ไปจนถึง "ขนาดไอสไตน์ยัง n=0"

แน่นอนว่าขึ้นชื่อว่าเป็นดราม่ามันก็เป็นเรื่องน่าปวดหู ไม่ค่อยสร้างสรรค์เท่าไหร่ แต่ในความไม่สร้างสรรค์นี้ มันก็เป็นโอกาสดีที่จะทำให้คนทั่วๆ ไปได้ตื่นตัวมากขึ้นเกี่ยวกับวิทยาศาสตร์ และหลักการที่ถูกต้องของวิทยาศาสตร์ ความยากลำบากก่อนที่จะมาเป็นงานวิจัยตีพิมพ์ที่ได้รับการยอมรับ ฯลฯ พูดง่ายๆ ก็คือ นอกจากโอกาสนี้คงจะไม่มีโอกาสอื่นอีกแล้วที่จะสามารถเขียนโพสต์อธิบายให้คนเข้าใจได้เกี่ยวกับ "n" และความสำคัญของมัน

- "n" คืออะไร?

"n" ก็คือตัวอักษรภาษาอังกฤษตัวที่ 14... โอเค จริงจังกว่านั้นหน่อย "n" ก็คือ "ตัวแปร" ซึ่งเป็นภาษาหรูๆ ที่แปลว่ามันเป็นตัวแทนของอะไรสักอย่างหนึ่ง ซึ่งเราจะแทนเป็นอะไรก็ได้ แต่โดยธรรมเนียมปฏิบัติของสายคณิตศาสตร์ วิทยาศาสตร์ และสถิติแล้ว เรามักจะใช้ "n" แทนจำนวนนับจำนวนหนึ่ง (ซึ่งน่าจะมาจากที่ "N" เป็นตัวแทนของ Natural numbers หรือจำนวนนับนั่นเอง) และในแง่ของการทดลอง เรามักจะใช้ n แทนจำนวนครั้งที่ได้ทำการทดลองก่อนที่จะได้ผลตามที่รายงาน เช่น "n=2" แสดงว่าได้มีการทำการทดลองทั้งสิ้นสองครั้ง "n=88" แสดงว่าผลการทดลองนี้เกิดมาจากการวัด 88 ครั้ง เป็นต้น

- ทำไมต้องมี "n"? ทำไมเราต้องทดลองซ้ำ?

หลักการที่สำคัญอย่างหนึ่งของวิทยาศาสตร์ก็คือ "Reproducibility" นั่นก็คือไม่ว่าใครก็ตามจะต้องสามารถทำการทดลองซ้ำ และได้ผลไปในทางเดียวกัน และหากมีใครทดลองซ้ำแล้วไม่ได้ ผลการทดลองนั้นก็ต้องตกไป (แล้วค่อยไปว่ากันอีกทีว่ามันผิดตรงไหน) ตัวอย่างที่ดีอย่างหนึ่งของกรณีนี้ที่เพิ่งเกิดขึ้นมาไม่นาน ก็คือกรณีที่มีการค้นพบฟอสฟีนบนชั้นบรรยากาศของดาวศุกร์ ที่มีการรายงานไปในวันที่ 14 กันยายน 2020[1] ซึ่งต่อมาได้ลองนำข้อมูลเดียวกันมาวิเคราะห์แต่กลับพบว่าไม่สามารถพบสัญญาณของฟอสฟีนได้อีกต่อไป จากการวิเคราะห์เพิ่มเติมจึงพบว่าสาเหตุมาจากขั้นตอนการลดทอนข้อมูลของทีมแรกที่ใช้พหุนามถึงดีกรี 12 บวกกับ confirmation bias ที่ผู้ทดลองพยายามจะ "หา" ในสิ่งที่ต้องการจะเจออยู่แล้ว จึงบังเอิญไปสร้างสัญญาณนั้นขึ้น ไม่ว่าจะโดยตั้งใจหรือไม่ก็ตาม[2] แต่ผลก็คือ การทดลองซ้ำนี้ทำให้เราทราบว่าปัจจุบันเรายังไม่มีหลักฐานใดว่ามีฟอสฟีนบนชั้นบรรยากาศของดาวศุกร์ (ซึ่งไม่ได้หมายความว่าไม่มี เราแค่ยังไม่รู้แน่ชัดว่ามีหรือไม่)

นอกจากนี้ ในการศึกษาทางวิทยาศาสตร์หลายๆ ครั้ง เราไม่สามารถศึกษาข้อมูลทั้งหมดได้ แต่เราจำเป็นต้องศึกษาเพียงส่วนหนึ่งของ "ประชากร" ไม่ว่าจะหมายถึงประชากรมนุษย์จริงๆ ในทางการแพทย์ หรือประชากรของ "ตัวอย่าง" ซึ่งอาจจะเป็นสิ่งของที่ไม่มีชึวิต เช่น ประชากรดาวฤกษ์ ที่แต่ละตัวอย่างนั้นอาจจะมีความแตกต่างกันออกไป และเราต้องการข้อสรุปบางอย่าง เพื่อจะเป็นตัวแทนที่อธิบายถึงลักษณะของประชากรนั้นๆ โดยรวม เราจึงจำเป็นต้องมีการสุ่มประชากร และใช้สถิติในการอธิบาย

เพราะเหตุใดเราจึงต้องทำการทดลองซ้ำ? ถ้าให้ตอบแบบง่ายๆ ก็คือ "เพื่อให้รู้ว่าเราไม่ได้ 'ฟลุ๊ค'" ลองนึกตัวอย่างง่ายๆ ว่าเราต้องการสำรวจน้ำหนักโดยเฉลี่ยของชาวเกาะแห่งหนึ่ง หากเราชั่งคนแรกได้ 103 กก. เราสามารถสรุปได้หรือไม่ ว่าชาวเกาะส่วนมากนั้นหนักเกิน 100 กก.? แน่นอนว่านี่ไม่ใช่คำตอบที่ถูก เพราะเราไม่มีทางทราบได้ว่าไอ้คนที่หนัก 103 กก. นั้น เป็นคนที่มีน้ำหนักเป็นค่าเฉลี่ย หรือว่าเรา 'ฟลุ๊ค' บังเอิญไปสำรวจคนที่หนักที่สุดบนเกาะพอดี

วิธีเดียวที่จะทำให้แน่ใจว่าเราไม่ได้ 'ฟลุ๊ค' ก็คือการสุ่มตัวอย่างอีกครั้งหนึ่ง ซึ่งแน่นอนว่าต่อให้เราสุ่มอีกครั้ง ก็ไม่มีอะไรการันตีว่าเราจะไม่ 'ฟลุ๊ค' ได้คนที่หนักที่สุดสองดันดับแรกของเกาะมาด้วยกันทั้งคู่ แต่อย่างน้อยเราก็รู้ว่าโอกาสที่จะฟลุ๊คเช่นนั้นมันก็ลดน้อยลงไปอย่างมาก และยิ่งเราเพิ่มประชากรมากเท่าใด ตราบใดที่กลไกในการ "สุ่ม" ของเรานั้นเป็นไปโดยสุ่มอย่างแท้จริง ก็ยิ่งมีโอกาสน้อยลงๆ ที่ประชากรที่เราสุ่มมานั้นจะมีน้ำหนักผิดปรกติไปจากค่าเฉลี่ย

ซึ่งยิ่งเรามี n เยอะเท่าไหร่ ก็จะยิ่งดี เพราะคงจะแทบเป็นไปไม่ได้เลยที่เราจะสุ่มเจอชาวเกาะ 10,000 คนที่น้ำหนักเกินร้อยพร้อมๆ กัน... เว้นเสียแต่ว่าชาวเกาะจำนวนมากนั้นมีน้ำหนักเกิน 100 กก. จริงๆ

ซึ่งค่า n ที่เหมาะสมนั้น ไม่มีกฏตายตัว ว่าจะต้องมี n อย่างน้อยเท่าไหร่จึงจะเพียงพอ ขึ้นอยู่กับปัจจัยหลายๆ อย่าง และในหลายๆ กรณีนั้นเราก็ไม่สามารถเพิ่ม n ได้มากไปเสียเท่าไหร่

แต่หากเราย้อนกลับไปที่เงื่อนไขของ reproducibility เราก็จะทำความเข้าใจได้ง่ายขึ้น สมมติว่าเราสุ่มน้ำหนักชาวเกาะมาสองคน เรามั่นใจได้แค่ไหนว่า หากมีนักวิจัยคนอื่นสุ่มน้ำหนักชาวเกาะมาอีกสองคน เขาจะได้ค่าเท่ากัน? ถ้าหากว่าเราไม่มีความมั่นใจว่าจะได้คำตอบเดิม ทางที่ดีที่สุดก็คือ "ทำซ้ำ" จนกว่าจะมั่นใจเพียงพอ แน่นอนว่าไม่มีอะไรบอกว่า n=1,000 นั้นจะเพียงพอแล้ว แต่ถึงระดับนั้นเราอาจจะมีความมั่นใจเพียงพอแล้วว่า หากคณะอื่นมาสำรวจด้วยกลไกการสุ่มแบบเดียวกับเรา น่าจะได้ผลที่ไม่ต่างจากเรามากเท่าใดนัก (ซึ่งเราอาจพูดได้ว่ามีความเกี่ยวข้องกับ Confidence Interval สามารถอ่านได้จากโพสต์ที่โพสต์ไปเมื่อวาน[3])

ซึ่งนี่เป็นเพียงการพูดแบบง่ายๆ ที่เราสามารถใช้สามัญสำนึกในการทำความเข้าใจได้ ในความเป็นจริงแล้วนักวิทยาศาสตร์นั้นมีกลไกทางสถิติอีกมากมายที่จะบอกว่าโอกาสที่ค่านั้นจะสะท้อนถึงค่าจริงของประชากรนั้นมากเพียงพอแล้วหรือยัง

- ขนาดไอสไตน์ยัง "n=0"

นี่เป็นความเข้าใจผิดอย่างหนึ่งที่คนมักจะมีต่อนักทฤษฎี คนมักจะเข้าใจกันว่านักทฤษฎีนั้นเพียงแค่คิดทฤษฎีออกมาก็จบแล้ว ซึ่งในฐานะที่เป็นนักวิจัยสาขาดาราศาสตร์ฟิสิกส์ภาคทฤษฎ๊ ผมขอตอบว่านี่ไม่เป็นความจริงแต่อย่างใด จริงอยู่ว่าหน้าที่ของนักทฤษฎ๊คือการคิดค้นและนำเสนอทฤษฎีใหม่ แต่... จุดประสงค์ของการคิดค้นทฤษฎีเหล่านั้นคือการนำมาอธิบายปรากฏการณ์ที่เกิดขึ้นในธรรมชาติ เราจึงทำการยืนยันทฤษฎีของเราได้ เพียงการนำมาทดสอบกับสังเกตการณ์จริงเพียงเท่านั้น

ทฤษฎีวิทยาศาสตร์นั้นจะต้องมี testable prediction ก็คือ จะต้องสร้างคำทำนายอะไรบางอย่างที่สามารถนำไปทดสอบได้จริง เช่น ผมซึ่งคิดค้นทฤษฎีแรงโน้มถ่วงใหม่ที่จะมาอธิบายแทนพลังงานมืด ผมอาจจะต้องเสนอว่าหากทฤษฎีของผมนั้นเป็นความจริง เราจะพบว่าการขยายตัวของเอกภพจะต้องแตกต่างกับกรณีที่มีพลังงานมืดในลักษณะนี้ และเราจะสามารถตรวจวัดความแตกต่างได้หากเราสังเกตใน CMB โดยใช้วิธีนี้ และหากข้อมูลนั้นมีอยู่แล้วผมอาจจะต้องยืนยันว่าเราสามารถสังเกตเห็นสัญญาณดังกล่าวได้จริง หรือนักทฤษฎีอีกสายอาจจะเพียงแค่ "เสนอ" และรอให้การสังเกตการณ์ในอนาคตเป็นตัวพิสูจน์ว่าทฤษฎีของเขานั้นจริงหรือไม่

ทฤษฎีของไอสไตน์ก็เช่นเดียวกัน ไม่ได้เป็นเพียง n=0 นั่งนึกทางในแล้วก็จบแต่อย่างใด แต่ไอสไตน์ต้องใช้ความพยายามเป็นอย่างมากในการแสดงให้เห็นว่าทฤษฎีนี้ไม่เพียงแต่สามารถอธิบายทฤษฎีแรงโน้มถ่วงได้พอๆ กันกับทฤษฎีของนิวตันอยู่เดิมแล้ว แต่ยังสามารถอธิบายปรากฏการณ์ที่นิวตันไม่สามารถอธิบายได้ เช่น การส่ายวงโคจรของดาวพุธ รวมไปถึงคำทำนายว่าจะสามารถสังเกตเห็นการเปลี่ยนตำแหน่งของดาวฤกษ์ระหว่างเกิดสุริยุปราคา ที่ Sir Arthur Eddington ได้ยืนยันในที่สุด และยังมีคำทำนายอื่นๆ อีกมากที่เราเพิ่งจะมายืนยันกันได้ในเร็วๆ นี้ เช่น frame-dragging effect โดย Gravity Probe B, Gravitational Wave โดย LIGO และอีกมากที่ยังรอคอยการยืนยัน

ดังนั้น จะเห็นได้ว่าแม้กระทั่งนักทฤษฎี ก็ยังต้องอ้างอิงการสังเกตการณ์ในการยืนยันทฤษฎี และไม่ใช่ n=0 อย่างที่เขากล่าวอ้าง

- มีการค้นพบอีกมากที่ "n=1"

มีคนยกตัวอย่างขึ้นมาถึง "การค้นพบเพนนิซิลลิน หาก Fleming แค่โยนจานเพาะเชื้อทิ้ง โดยปราศจากความสังเกตและการหาเหตุผลมาอธิบาย โลกนี้ก็จะไม่มีวันค้นพบ Penicillin"

แต่ความเป็นจริงแล้ว Alexander Flemming ผู้ค้นพบเพนนิซิลิน เขาก็ไม่ได้อ้างอิงมาจาก n=1 อย่างที่เข้าใจกันผิดๆ แต่เขาสังเกตจาก n นับล้านตัวของเชื้อรา ที่สามารถยับยั้งแบคทีเรียได้ (ไม่ใช่ว่ามองเพียงว่าหนึ่งจานเพาะเชื้อ แล้วก็บอกว่า n=1) และก็แน่นอนว่า Alexander Flemming นั้นก็ไม่ได้สรุปผลเพียงแค่จากจานเดียว เพราะเขาต้องไปทำการทดลองเพื่อยืนยันเพิ่มเติมอีกมากมาย

ความเป็นจริงแล้ว สาขาดาราศาสตร์นี่แหล่ะ ที่เป็นสาขาหนึ่งที่ยืนยันการค้นพบจาก n จำนวนน้อยๆ บ่อยครั้ง เนื่องจากปรากฏการณ์หลายๆ อย่างทางดาราศาสตร์นั้นอาจจะเป็น transient และเกิดขึ้นเพียงครั้งเดียว เช่น LIGO ค้นพบการชนกันของหลุมดำ[4] เนื่องจากหลุมดำนั้นจะไม่ได้เกิดการชนกันอีกแล้ว และคลื่นความโน้มถ่วงของการชนนั้นก็ผ่านเลยโลกของเราไปแล้ว และไม่ได้มีเครื่องตรวจวัดอื่นอีก เราจะยืนยันได้อย่างไรว่าการค้นพบนี้เกิดขึ้นจริง?

เช่นเดียวกัน แม้ว่าเหตุการณ์นี้จะเป็นเหตุการณ์เดียว แต่การยืนยันว่ามีการชนกันของคลื่นความโน้มถ่วงนั้น เกิดขึ้นจากจำนวนจุดข้อมูลนับพันจุด ซึ่งถูกนำไป fit กับโมเดลการเกิดคลื่นความโน้มถ่วง และตรงกันกับการรวมตัวกันของหลุมดำสองหลุมมวล 29 และ 36 เท่าของดวงอาทิตย์อย่างไม่ผิดเพี้ยน และนอกจากนี้ก่อนที่จะมาเป็นข้อมูลจะต้องมีการเทียบกับ baseline ก่อนที่จะยืนยันได้ว่าข้อมูลที่เกิดขึ้นนั้นมีนัยะสำคัญเป็นอย่างมากเทียบกับสัญญาณรบกวนปรกติ ไม่เพียงเท่านั้น คลื่นความโน้มถ่วงนี้ถูกยืนยันทั้งโดยเครื่องตรวจวัดที่ Hanford, Washington และ Livingston, Louisiana พร้อมกันโดยไม่ผิดเพี้ยน จึงเป็นการยากที่จะเกิดขึ้น "โดยบังเอิญ" และแท้จริงแล้วเกิดขึ้นจากข้อมูลเป็นจำนวนมาก และ n นับหลายล้านชุดข้อมูล

และถึงแม้ว่าการสังเกตการณ์ปรากฏการณ์หลายๆ อย่างในทางดาราศาสตร์นั้นจะไม่สามารถทำซ้ำได้ แต่เรายังพิจารณาเงื่อนไข Reproducibility ได้ว่า "ในทางทฤษฎีแล้ว หากเหตุการณ์เดิมเกิดขึ้นซ้ำอีก สังเกตโดยกล้องเดิมด้วยวิธีเดิม เราก็เชื่อว่าเราจะน่าได้ผลเช่นเดิม" ซึ่งนักดาราศาสตร์ก็ต้องทำทุกวิถีทางเพื่อที่จะให้แน่ใจว่าคำกล่าวเบื้องต้นนั้นเป็นความจริง และเราก็ได้ยืนยันโดยการทำการสังเกตการณ์ปรากฏการณ์อื่นที่ใกล้เคียงกันและได้ผลสอดคล้องกันอย่างต่อเนื่อง

- สรุป: เราสามารถทำการค้นพบที่ n=2 ได้หรือไม่?

คำตอบก็คือ "ขึ้นอยู่กับว่าเรากำลังพยายามจะสรุปผลว่าอะไร" ถ้าสมมติเราต้องการสรุปว่า "ฮิปโปสีชมพูบินได้มีอยู่จริง" แน่นอนว่าเราต้องการเพียงแค่ n=1 เพียงฮิปโปสีชมพูบินได้เพียงตัวเดียว เราก็สามารถยืนยันข้อสรุปของเราได้แล้ว และต่อให้เราพูดถึงภูมิที่เกิดจากวัคซีน หากเราต้องการสรุปแค่ว่า "วัคซีนทำให้เกิดภูมิ" ก็คงไม่ผิดอะไรหากจะใช้ภูมิจากประชากรคนเดียวในการยืนยัน (เพราะจริงๆ จำนวน antibody นับหมื่นที่ตรวจพบในเลือดต่างหาก ที่เป็นตัวยืนยัน)

แต่หากเราต้องการสรุปว่า "ประชากรที่ได้รับวัคซีนสามเข็มนี้มีภูมิในอัตราที่สูงกว่าประชากรที่ได้รับวัคซีนเพียงสองเข็มอยู่ถึง 30 เท่า" เราคงต้องถามว่าหากเราใช้เพียง n=2 เราจะมั่นใจได้อย่างไรว่าค่าที่วัดได้จากประชากรสองคนนั้น สามารถสะท้อนถึงประชากรผู้ที่จะฉีดวัคซีนสามเข็มในอนาคต และหากเราเจาะตรวจคนถัดไป เราจะยังพบว่าภูมิยังมากกว่าในปริมาณ 30 เท่าอยู่อีกหรือไม่?

ถ้าไม่ เราก็ควรจะรอจนกว่าจะแน่ใจในระดับหนึ่ง ก่อนที่จะมานำเสนอผลงานให้คนอื่นฟัง ไม่งั้นก็จะโดนทัวร์ลงเช่นนี้แล

อ้างอิง/อ่านเพิ่มเติม:
[1] https://www.facebook.com/matiponblog/photos/1407760732767462/
[2] https://www.facebook.com/matiponblog/photos/1440851326125069/
[3] https://www.facebook.com/matiponblog/photos/1633172406892959
[4] https://www.facebook.com/matiponblog/photos/427749910768554


Tags:

About author
not provided
วิทยาศาสตร์ ดาราศาสตร์ เรื่องน่ารู้
View all posts